查看原文
其他

【扎克伯格面向AGI开源】Llama 3重磅发布:全球最强开源大模型,GPT4级别开源权重

opencat AI寒武纪 2024-04-20




前几天某度CEO刚刚说完开源模型会越来越落后,今天扎克伯格就放出开源王炸:‍‍‍‍‍‍‍‍‍‍Meta Llama 3横空出世,这是人工智能发展一个历史性时刻



Llama 3系列首发两款模型:80亿参数(Llama 3 8B)和700亿参数(Llama 3 70B)版本,更为强大的版本4000亿参数(Llama 3 400B)还在训练,未来几个月将会发布


Llama 3不仅在性能上超越了Llama 2,更在推理、代码生成和指令遵循等方面实现了突破,成为了目前最强大的开源大语言模型



 Llama 3的优势


Llama 3的主要优势包括:

  • 性能领先: Llama 3在多个行业基准测试中展现了最先进的性能,其8B和70B参数模型在同等规模模型中处于领先地位


  • 推理能力提升: Llama 3在推理、代码生成和指令遵循等方面取得了显著进步,使其更具实用性和可控性


  • 错误拒绝率降低: Llama 3的错误拒绝率大幅降低,使其成为迄今为止最“乐于助人”的模型


  • 开放性: Llama 3秉承开源精神,将模型代码和资源向社区开放,推动人工智能领域的创新和发展。




 Llama 3的技术细节



Llama 3的技术细节包括:


  • 模型架构: Llama 3采用标准的解码器Transformer架构,并引入了分组查询注意力机制(GQA)和更大的词汇表(128K tokens),提升了模型的效率和性能


  • 训练数据: Llama 3使用了超过15万亿个token的训练数据,其中包含高质量的非英语数据,覆盖了30多种语言



  • 数据过滤: Llama 3采用了一系列数据过滤机制,包括启发式过滤、NSFW过滤、语义重复数据删除和文本分类器,确保训练数据的质量


  • 规模化训练: Llama 3使用了先进的训练技术,包括数据并行、模型并行和流水线并行,并在定制的24K GPU集群上进行训练,实现了高效的模型训练


  • 指令微调: Llama 3采用了监督微调(SFT)、拒绝采样、近端策略优化(PPO)和直接策略优化(DPO)等技术进行指令微调,提升了模型的性能和安全性。




 Llama 3的发布,业内人士也给予了高度评价




Llama 3的发布引发了人工智能社区的热烈讨论,专家和开发者纷纷表达了对Llama 3的期待和赞誉:



Jim Fan博士:

 

他认为即将推出的Llama 3-400B+模型将是社区获得GPT-4级别模型的重要里程碑,将改变许多研究和初创企业的发展方向。他期待Llama 3-400B+模型在未来几个月内变得更加完善,并相信它将释放巨大的研究潜力,推动整个生态系统的发展



Cameron R. Wolfe博士: 


他指出Llama 3证明了训练优秀大语言模型的关键在于数据质量。他详细分析了Llama 3在数据方面做出的努力,包括:


1)15万亿个token的预训练数据: 比Llama 2多7倍,比DBRX的12万亿个还要多


2)更多代码数据: 预训练过程中包含更多代码数据,提升了模型的推理能力


3)更高效的tokenizer: 拥有更大的词汇表(128K tokens),提高了模型的效率和性能。



4)先进的数据质量过滤: 包括启发式过滤、NSFW过滤、语义重复数据删除和文本分类器等,确保训练数据的质量‍


5)对数据混合的实证分析: 寻找最佳的数据混合方式,确保模型在各个任务上的表现‍


6)对后训练数据的质量过滤: 包括SFT、RLHF、DPO等阶段的数据质量,这对模型的性能至关重要




Aston Zhang(Llama 3开发者): 


他分享了Llama 3开发过程中的挑战和经验,强调了数据、计算、基础设施、模型、推理、安全和评估等方面的协同作用。他还透露了Llama 3的一些关键技术细节,例如:


1)最大的模型超过400B参数,且仍在训练中‍



2)选择了8B而不是7B模型,主要原因是升级了tokenizer,词汇表从32K扩展到128K,提高了模型的效率和性能‍


3)预训练上下文窗口设置为8K tokens,未来将发布更长上下文窗口的模型‍


4)除了自动评估,还进行了精心设计的人工评估,以更全面地评估模型的性能。


Bindu Reddy 她认为Llama 3 70B模型的性能令人惊叹,开源社区将在几周内超越GPT-4



Rowan Cheung 


他预测Meta将把GPT-4级别的模型免费提供给超过30亿用户,这将对人工智能的普及和发展产生巨大影响。 他认为,这比人们意识到的更重要,因为大多数人甚至还没有使用过ChatGPT,或者只使用过GPT 3.5一次。 如果Meta执行得当,他们可以让数十亿人觉得Llama 3比ChatGPT更好,因为他们只尝试过GPT 3.5



结语



Llama 3的发布无疑是Meta在大型语言模型领域取得的又一重大突破。凭借海量的高质量训练数据、先进的模型架构、创新的微调技术以及对安全性的重视,Llama 3展现出了卓越的性能,并有望在未来进一步提升,挑战行业巨头。Meta公司坚持开源开放的理念,也必将推动整个AI生态系统的快速发展


Meta推出了新的网站meta.ai已经集成了Llama 3,现在就可以开始使用了‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍



Llama 3详细信息:


https://ai.meta.com/blog/meta-llama-3/?utm_source=twitter&utm_medium=organic_social&utm_content=video&utm_campaign=llama3


https://llama.meta.com/llama3/



⭐星标AI寒武纪,好内容不错过⭐

用你的在看告诉我~





开源羊毛👇👇
继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存